已经提出了图形神经网络(GNN)预训练方法来增强GNN的能力。具体而言,首先在大规模的未标记图上预先训练GNN,然后在单独的小标记图上进行微调,以用于下游应用程序,例如节点分类。一种流行的预训练方法是掩盖一部分边缘,并接受了GNN的培训以恢复它们。但是,这种生成方法遭受了图不匹配。也就是说,输入到GNN偏离原始图的蒙版图。为了减轻此问题,我们提出了DIP-GNN(图神经网络的歧视性预训练)。具体来说,我们训练一个发电机以恢复蒙版边缘的身份,同时,我们训练一个判别器,以区分生成的边缘与原始图的边缘。在我们的框架中,鉴别器看到的图形更好地匹配原始图,因为生成器可以恢复蒙版边缘的一部分。大规模同质和异质图的广泛实验证明了该框架的有效性。
translated by 谷歌翻译
传统的假视频检测方法输出篡改图像的可能性值或可疑掩码。但是,这种无法解释的结果不能用作令人信服的证据。因此,更好地追溯虚假视频来源。传统的散列方法用于检索语义 - 相似的图像,这不能区分图像的细微差别。具体地,与传统视频检索相比,源跟踪。从类似的源视频中找到真实的挑战是一项挑战。我们设计了一种新的损失哈希多粒损失,解决了人们的视频非常相似的问题:与不同角度相同的场景,与同一个人的类似场景。我们提出了基于视觉变压器的模型,名为视频跟踪和篡改本地化(VTL)。在第一阶段,我们通过Vithash(VTL-T)训练哈希中心。然后,将假视频输入到Vithash,该vithash输出散列码。哈希码用于从哈希中心检索源视频。在第二阶段,源视频和假视频被输入到生成器(VTL-L)。然后,掩盖可疑区域以提供辅助信息。此外,我们构建了两个数据集:DFTL和Davis2016-TL。对DFTL的实验明显展示了我们在类似视频的追踪中框架的优势。特别地,VTL还通过在Davis2016-TL上实现了与最先进的方法的相当性能。我们的源代码和数据集已在github上发布:\ url {https:/github.com/lajlksdf/vtl}。
translated by 谷歌翻译
Intelligent mesh generation (IMG) refers to a technique to generate mesh by machine learning, which is a relatively new and promising research field. Within its short life span, IMG has greatly expanded the generalizability and practicality of mesh generation techniques and brought many breakthroughs and potential possibilities for mesh generation. However, there is a lack of surveys focusing on IMG methods covering recent works. In this paper, we are committed to a systematic and comprehensive survey describing the contemporary IMG landscape. Focusing on 110 preliminary IMG methods, we conducted an in-depth analysis and evaluation from multiple perspectives, including the core technique and application scope of the algorithm, agent learning goals, data types, targeting challenges, advantages and limitations. With the aim of literature collection and classification based on content extraction, we propose three different taxonomies from three views of key technique, output mesh unit element, and applicable input data types. Finally, we highlight some promising future research directions and challenges in IMG. To maximize the convenience of readers, a project page of IMG is provided at \url{https://github.com/xzb030/IMG_Survey}.
translated by 谷歌翻译
大规模发光点云的快速有效语义分割是自主驾驶中的一个基本问题。为了实现这一目标,现有的基于点的方法主要选择采用随机抽样策略来处理大规模点云。但是,我们的数量和定性研究发现,随机抽样可能不适合自主驾驶场景,因为LiDAR点遵循整个空间的不均匀甚至长尾巴分布,这阻止了模型从从中捕获足够的信息,从而从中捕获了足够的信息不同的距离范围并降低了模型的学习能力。为了减轻这个问题,我们提出了一种新的极性缸平衡的随机抽样方法,该方法使下采样的点云能够保持更平衡的分布并改善不同空间分布下的分割性能。此外,引入了采样一致性损失,以进一步提高分割性能并降低模型在不同采样方法下的方差。广泛的实验证实,我们的方法在Semantickitti和Semanticposs基准测试中都产生了出色的性能,分别提高了2.8%和4.0%。
translated by 谷歌翻译
我们提出了一种新颖的有效方法,用于通过几何拓扑来解决全球点云注册问题。基于许多点云成对注册方法(例如ICP),我们关注沿任何循环的转换组成的累积误差问题。本文的主要技术贡献是仅使用泊松方程式消除错误的线性方法。我们从Hodge-Helmhotz分解定理和在现实世界场景的多个RGBD数据集中进行了实验,证明了我们方法的一致性。实验结果还表明,我们的全球注册方法运行迅速并提供准确的重建。
translated by 谷歌翻译
推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即点击,喜欢,分享和多任务融合模型(MTF),该模型(MTF)结合了多任务就用户满意度而言,输出分为最终排名得分。关于融合模型的研究并不多,尽管它对最终建议作为排名的最后一个关键过程有很大的影响。为了优化长期用户满意度,而不是贪婪地获得即时回报,我们将MTF任务作为Markov决策过程(MDP),并在推荐会话中提出,并建议基于批处理加固学习(RL)基于多任务融合框架(BATCHRL-MTF)包括批处理RL框架和在线探索。前者利用批处理RL从固定的批处理数据离线学习最佳推荐政策,以达到长期用户满意度,而后者则探索了潜在的高价值动作在线,以突破本地最佳难题。通过对用户行为的全面调查,我们通过从用户粘性和用户活动性的两个方面的微妙启发式方法对用户满意度进行了建模。最后,我们对十亿个样本级别的现实数据集进行了广泛的实验,以显示模型的有效性。我们建议保守的离线政策估计器(保守 - 访问器)来测试我们的模型离线。此外,我们在真实推荐环境中进行在线实验,以比较不同模型的性能。作为成功在MTF任务中应用的少数批次RL研究之一,我们的模型也已部署在一个大规模的工业短视频平台上,为数亿用户提供服务。
translated by 谷歌翻译
由于大型数据集中的深度学习模型需要大量时间和资源,因此希望构建一个小型合成数据集,我们可以通过该数据集充分训练深度学习模型。最近有一些作品通过复杂的BI级优化探索了有关凝结图像数据集的解决方案。例如,数据集冷凝(DC)匹配网络梯度W.R.T.大型数据和小合成数据,在每个外迭代处,网络权重优化了多个步骤。但是,现有方法具有其固有的局限性:(1)它们不直接适用于数据离散的图表; (2)由于所涉及的嵌套优化,冷凝过程在计算上昂贵。为了弥合差距,我们研究了针对图形数据集量身定制的有效数据集冷凝,在该数据集中我们将离散图结构模拟为概率模型。我们进一步提出了一个单步梯度匹配方案,该方案仅执行一个步骤,而无需训练网络权重。我们的理论分析表明,该策略可以生成合成图,从而导致实际图上的分类损失降低。各种图数据集的广泛实验证明了该方法的有效性和效率。特别是,我们能够将数据集大小降低90%,同时大约98%的原始性能,并且我们的方法明显快于多步梯度匹配(例如,CIFAR10中的15倍用于合成500个图)。
translated by 谷歌翻译
从单眼图像中重建多人类的身体网格是一个重要但具有挑战性的计算机视觉问题。除了单个身体网格模型外,我们还需要估计受试者之间的相对3D位置以产生连贯的表示。在这项工作中,通过单个图形神经网络,名为MUG(多人类图网络),我们仅使用多人2D姿势作为输入来构建相干的多人类网格。与现有的方法相比,采用检测风格的管道(即提取图像特征,然后找到人体实例并从中恢复身体网格),并遭受实验室收集的训练数据集和野外测试之间的显着域间隙数据集,我们的方法从2D姿势中受益,该姿势具有跨数据集具有相对一致的几何特性。我们的方法工作如下:首先,为了建模多人类环境,它处理多人2D姿势并构建一个新颖的异质图,其中来自不同人和一个人内部的节点与一个人内部连接在一起,以捕获人际关系间的互动并绘制人际关系身体几何形状(即骨骼和网格结构)。其次,它采用双分支图神经网络结构 - 一种用于预测人间深度关系,另一个用于预测与根系接线相关的网格坐标。最后,通过将两个分支的输出组合来构建整个多人类3D网格。广泛的实验表明,杯子在标准3D人体基准的先前多人类网格估计方法 - Panoptic,Mupots-3D和3DPW上的表现。
translated by 谷歌翻译
图形神经网络(GNN)已成为编码图形结构数据的强大工具。由于其广泛的应用程序,越来越需要开发工具来解释GNN如何做出给定的图形结构数据决定。现有的基于学习的GNN解释方法在培训中是特定于任务的,因此遭受了关键的缺点。具体而言,它们无法为使用单个解释器提供多任务预测模型的解释。在GNN以自我监督的方式训练的情况下,他们也无法提供解释,并且在未来的下游任务中使用了结果表示。为了解决这些局限性,我们提出了一个任务不合时宜的GNN解释器(TAGE),该解释器(Tage)独立于下游模型,并在自学人员的情况下接受了训练,而对下游任务不了解。 Tage可以通过看不见的下游任务来解释GNN嵌入模型,并可以有效解释多任务模型。我们的广泛实验表明,通过使用相同的模型来解释多个下游任务的预测,同时实现了与当前最新的GNN解释方法一样好甚至更好的解释质量,可以显着提高解释效率。我们的代码可公开作为DIG库的一部分,网址为https://github.com/divelab/dig/tree/main/main/dig/xgraph/tage/。
translated by 谷歌翻译
Compressed videos often exhibit visually annoying artifacts, known as Perceivable Encoding Artifacts (PEAs), which dramatically degrade video visual quality. Subjective and objective measures capable of identifying and quantifying various types of PEAs are critical in improving visual quality. In this paper, we investigate the influence of four spatial PEAs (i.e. blurring, blocking, bleeding, and ringing) and two temporal PEAs (i.e. flickering and floating) on video quality. For spatial artifacts, we propose a visual saliency model with a low computational cost and higher consistency with human visual perception. In terms of temporal artifacts, self-attention based TimeSFormer is improved to detect temporal artifacts. Based on the six types of PEAs, a quality metric called Saliency-Aware Spatio-Temporal Artifacts Measurement (SSTAM) is proposed. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics. We believe that SSTAM will be beneficial for optimizing video coding techniques.
translated by 谷歌翻译